Chatbot Arena

7 статей

🎭 Почему результаты популярного ИИ-рейтинга LMArena оказались под вопросом

Machine Learning Street Talk · 08.06.25 · 18,7 тыс. просм.

📉 Кризис оценки ИИ: почему современные бенчмарки лгут?

Stanford Online · 04.06.25 · 22,2 тыс. просм.

🎯 Как победить контаминацию: миссия LMArena по созданию надежного ИИ

a16z (Andreessen Horowitz) · 29.05.25 · 4,1 тыс. просм.

🐉 Уэс Рот о DragonTail: «Секретная модель Google показывает пугающе крутые результаты»

Wes Roth · 13.04.25 · 70,6 тыс. просм.

🛠 Ян Дюбуа рассказал о скрытых ловушках тестирования LLM

Stanford Online · 04.03.25 · 16,9 тыс. просм.

📉 Как фреймворк RouteLLM сохраняет качество GPT-4 при радикальном снижении затрат

Wes Roth · 08.07.24 · 26,3 тыс. просм.

🎙 Уэс Рот: «Голосовой режим OpenAI случайно утек в сеть и поразил пользователей реализмом»

Wes Roth · 29.06.24 · 52,9 тыс. просм.